优维新栏目【UGeek大咖说】新春首期在热烈的欢呼声中落下帷幕,大咖说首期,我们邀请到来自虎牙直播的余万福老师,为我们分享虎牙可观测的建设及应用。以下是本期内容的文字节选,供大家回顾。


也有不少由于各种原因没观看到直播的粉丝

(后悔也要往前看  反正爱情不都这样!)

不过没关系  问题不大!

还有抓住爱情的最后机会(真的吗!)

错过的观众老爷们的福音!

小编每日内卷  吐血整理出本期直播回顾

精准简要提炼出讲师分享内容

别再留遗憾了  不然真的要等到下期了!

最后一次  走你

图片


嘉宾介绍


本次优维很荣幸邀请到【虎牙直播SRE负责人  余万福老师】来给大家讲解课程,专业背景,经验丰富,实力保障,带来【虎牙可观测系统建设及应用】的议题探讨。

虎牙直播

技术结构:中心+边缘的部署架构,两地三中心离在线混布模式,采用镜像VM模式覆盖边缘并100%覆盖。

SRE团队:应用架构(业务与架构师团队)、监控平台(7x24h值班与研发团队)、平台研发(调用链与DevOps系统团队)、数据智能(数据分析与算法开发团队)。

背景

质量:企业核心命脉,包含功能可用性(可不可用)与应用性能(好不好用)。

监控:数据承载平台,相当于我们的眼睛,深刻影响业务质量与用户留存。

目标:建设全面覆盖并具备关联分析决策能力的全景监控平台。

可观测能力建设

全景监控:点线面体系覆盖,应用承载关系纵向链路搭建(点),应用调用关系横向链路建设(线),组合流程进行AIOps舆情分析、异常检测、趋势预测(面)。

指标体系:业务→功能→应用→基础设施下钻,即黄金指标→拔测指标→应用指标→基础设施指标下钻。

指标详情:黄金指标(例如实时在线用户数)、功能指标(例如登陆成功率)、应用指标(例如延时)、资源指标(例如使用率)组成AIOps舆情检测能力。

可观测能力应用

全景监控大盘:全网质量、赛事模式、架构分层、黄金指标、用户旅程、应用数展示大盘。

元数据:画像标签呈现(上层辅助大盘),告警根因定位、指标离群分析、风险评估、混沌工程(质量),流量合理性分析(成本)。

架构自治:架构优化、异常发现、故障止损、根因定位、问题修复。

弹性算力:以终为始,目标为快准稳,对应速度、容量、质量,容器即服务的基础条件保障,智能弹缩,精细化运营。

结语

余老师谈到:道阻且长,监控系统仍有很大的完善空间,未来仍需不断思考与补充。

最后余老师也给我们留了一个小问题,引发大家的思考:监控是我们的眼睛,暂时性失明该如何自保?

大家也可以多去想下哦,有思路才会有出路!

问答环节

听完余老师的课件分享,大伙儿也是反响热烈,直播间评论区各种留言,与讲师进行了很久的互动交流。

余老师表示:都冲我来!全都Hold得住!

(既然热情抵挡不住,那就躺下享受吧!)

现在就让大家瞧一瞧问答实录!

(Q→热心观众,A→余老师)

Q-1:虎牙数据存储方案是怎么解决这么大量级的问题?

A-1:CK、TSDB 。


Q-2:AI  HPA是基于什么技术做的?

A-2:数据智能团队有一部分兄弟负责算法开发,属于AIOps。


Q-3:监控告警的高可用设计是怎么样的?

A-3:从前端到后端无状态化,告警应用或实例发生异常,全部都会自动拉起。


Q-4:虎牙是如何解决告警风暴的问题?

A-4:通过关系收敛获取全景监控的能力。


Q-5:虎牙无侵入式链路追踪是怎么做的?

A-5:走的Zabbix方案,相应的代码片段插入到合适的位置,并做到热加载。


Q-6:监控无状态化是指部署在K8s上吗?

A-6:全都部署在K8s上容器覆盖。


Q-7:如果线路出现问题,那么如何保证用户和主播的服务正常持续提供?

A-7:多条线路自动切换,所有故障快恢在行业里面都是三板斧解决→扩容、重启、屏蔽切流。


Q-8:虎牙的黄金指标是如何定义的?

A-8:抽出最能体现实际质量的业务指标,内部也有凑合而成并通过算法计算得出的核心指标。


Q-9:虎牙现在Java开发的应用占比是多少?

A-9:50+%,主要还有Goland与Node  Js的。


Q-10:屏蔽切流会掉用户吗?

A-10:用户页面会闪下重新换流。


Q-10:屏蔽切流会掉用户吗?

A-10:用户页面会闪下重新换流。


Q-11:其他语言是不是都需要业务开发配合打桩,完成Tracing?

A-11:有统一框架,相关去做一些工作。


Q-12:有虎牙的监控部署工具介绍吗?工具很多整合困难。

A-12:留下能覆盖需求的好用工具,其他可以扔掉。


Q-13:虎牙每天告警量大概多少,告警处理流程是怎样的?

A-13:高峰期超过10w条;AIOps决策中心订阅告警,调用规则库与预案平台工具恢复,或是通过一线值班 / 预案工具根因分析。


Q-14:应用指标有哪些?除了交易量、成功率、响应率、响应耗时这几个黄金指标。

A-14:延时、流量、错误率、饱和度。


Q-15:现在虎牙的服务连续性保障是否都是全自动?

A-15:并非全自动,只覆盖了音视频业务。


Q-16:阿里云主机上容器性能是否能满足?另外故障发现虎牙是怎么做的?

A-16:理论上能满足;全景监控。


Q-17:监控工具太多,根因定位不够智能和快速,如何解决?

A-17:建立起具有数据关联关系的全景监控,告警直接体现根因。


【UGeek大咖说】栏目已准备好了12期的全年盛宴

月月都精彩,期期都刺激

敬请持续关注

往期推荐:UGeek大咖说第二期【百度专场】